Главная arrow книги arrow Копия Глава 21. Обучение с подкреплением arrow Исследование среды
Исследование среды

Можно ли выработать более точные рекомендации по сравнению с этими общими рассуждениями? Существует ли оптимальный способ организации исследования среды? Как оказалось, эти вопросы глубоко изучались в той области статистической теории принятий решений, которая касается так называемых задач с п-рукими бандитами, — так принято называть игорные автоматы, управляемые с помощью рукояток (см. врезку).

Рис. 21.4. Производительность агента ADP, действующего с помощью жадного алгоритма, который осуществляет действие, рекомендованное согласно оптимальной стратегии для модели, определяемой с помощью обучения: среднеквадратичная ошибка в оценках полезностей, усредненная по девяти нетерминальным квадратам (а); неоптимальная стратегия, к которой в пределе сходится поиск стратегии, выполняемый агентом с помощью жадного алгоритма, в данной конкретной последовательности попыток (б)

Исследование среды и n-рукие бандиты

В Лас-Вегасе одноруким бандитом называют игорный автомат определенного типа, в который игрок может вложить монету, потянуть за рукоятку и забрать выигрыш (если только таковой действительно появится). Существует также разновидность этого автомата с п рукоятками, называемая n-руким бандитом. Игрок должен выбрать, какую рукоятку следует потянуть на себя после вкладывания каждой следующей монеты, — ту, которая когда-то дала наибольший выигрыш, а может быть, ту, которую он еще не пытался использовать?